FAQ
F.A.Q.
Domande - Risposte
file Robots TXT
Internet Provider
Software
Internet Provider
mail marketing
preventivi Internet
supporto tecnico
sms da web
download
corsi
lavoro
pagamenti
Internet Provider
 
FAQ
faq
news
Applicativi asp
Motomania

file Robots TXT

Il file Robots.txt è fondamentale per varie ragioni:

In primis, bisogna pensare che non tutti i siti web che sono pubblicati in rete desiderano essere indicizzati nei motori di ricerca. Può sembrare un paradosso, ma molti siti sono pensati per una cerchia ristretta di utenti e non desiderano ottenere una pubblicità eccessiva o un pubblico diverso da quello che si è scelto di avere. Certo, si tratta di casi isolati rispetto alla maggior parte dei siti web (i cui proprietari gradiscono siano visualizzati sempre il più possibile, anche con ricerche – query – non perfettamente attinenti), ma sono casi che esistono.

Lo standard per l'esclusione dei robot (che – come abbiamo detto – è sinonimo di ‘spider’) si utilizza un normale file di testo, da creare attraverso un qualunque text editor (bbedit, textpad, wordpad etc). Questo file deve essere chiamato "robots.txt" e contiene, in un particolare formato, delle istruzioni che possono impedire a tutti o soltanto ad alcuni spider (quindi: motori di ricerca) il prelievo di alcune o tutte le pagine del sito.

Una volta creato il file robots.txt, questo deve essere pubblicato nella  directory principale del sito web.

Tutti i motori di ricerca conosciuti aderiscono alla a questa ‘normativa’ (per quanto non sia stata scritta in nessuna legge nazionale o internazionale) e quindi sono obbligati (deontologicamente anche se non tecnicamente) a seguire le indicazioni del file robots.txt. Quindi, qualora un motore di ricerca (tipicamente, attraverso un link) acceda a una qualsiasi delle nostr pagine, la prima cosa che esso andrà a verificare sarà la possibilità (l’autorizzazione) a spiderare le pagine di quel sito, ‘informandosi’ su quali possono essere le sezioni (pagine ) spiderabili (e quindi atte a essere inserite nell’indice) e quali no (nel caso ci siano delle limitazioni). In una stessa pagina è possibile indicare quali sono i link che possono essere ‘seguiti’ e quelli che invece debbono essere ignorati, in quanto il proprietario del sito (per ragioni che non dobbiamo stare qui a considerare) non gradisce che vengano inserite nell’indice del motore di ricerca.

E’ bene ricordare che il file robots.txt serve per ‘dichiarare’ ai motori di ricerca quali sono le pagine web che NON debbono essere spiderate. In assenza di questo file, i motori di ricerca si sentono nel diritto di spiderare e di inserire nell’indice tutte le pagine relative al sito web individuato.

Normalmente non conviene limitare gli spider, ma anche quando si ritiene che sia utile che il proprio sito venga spiderato per intero è bvene inserire comunque un file robots.txt e questo perché dà al motore di ricerca l’idea che il sito sia stato costruito correttamente e seguendo tutte le regole della Setiquette, ovverosia della netiquette applicata e dedicata ai motori di ricerca. Un sito che non contenga questo file (nella dirextory principale) può essere perciò considerato poco professionale (a prescindere dalla quantità e dalla qualità delle pagine che si consente di spiderare) e quindi può essere penalizzato in fase di indicizzazione e soprattutto di posizionamento nelle SERP (Search Engine Page Results).

tratto da: www.webmasterpoint.org


faq Indietro

 

Home | Chi Siamo | Contatti | Internet Provider | Software House | Active Web | Web Marketing | SMS | Realizzazioni | Preventivi | Supporto | Lavoro | Condizioni
RD Informatica - Str. Rupola 14 - 61122 Pesaro PU - Tel 0721 206238 Fax 0721 1835042 P.Iva 01241970415 - info@rdinformatica.com 
Estrattore Pagine Gialle
Applicativi asp
RD
Applicativi asp
Internet provider
Software House
Applicativi asp
SMS Web
Software SMS
Mailing Project